The problem of AI chatbots telling people what they want to hear
The world’s leading artificial intelligence companies are stepping up efforts to deal with a growing problem of chatbots telling people what they want to hear.
OpenAI, Гугъл DeepMind and Anthropic are all working on reining in sycophantic behaviour by their generative AI products that offers over flattering responses to Потребители.
Проблемът, произлизащ от това по какъв начин се образоват огромните езикови модели, се концентрират във време, когато от ден на ден и повече хора са възприели чатботите освен на работа като асистенти, само че и в персоналния си живот като терапевти и обществени спътници.
Експертите предизвестяват, че приятният темперамент на чатботите може да ги докара до предложение на отговори, които ускоряват някои от неприятните решения на техните човешки консуматори. Други допускат, че хората с психологично заболяване са изключително уязвими, следвайки известия, че някои са умрели посредством самоубийство след взаимоотношение с чатботи.
„ Мислите, че говорите с справедлив поддръжник или лидер, само че в действителност това, което търсите, е някакво накриво огледало - което отразява назад на личните ви вярвания “, споделя Матю Нур, психиатрист и изследователка в невроскоумие и Ай в Оксфорд.
Вътрешните промишлености също предизвестяват, че AI фирмите имат извратени тласъци, като някои групи интегрират реклами в своите артикули в търсенето на потоци от доходи.
„ Колкото повече смятате, че можете да споделяте всичко, вие също ще споделите някаква информация, която ще бъде потребна за евентуални реклами “, Giada Pistilli, Premal Ethicist при прегръдка, Giada Pistilli.
Тя добави, че AI фирмите с бизнес модели, основани на платени абонаменти, са в изгода от чатботите, с които хората желаят да продължат да приказват - и да заплащат за.
Визуалният исторически AI съществува заради трансформатора
AI езиковите модели не „ мислят “ по метода, по който хората вършат, тъй като работят, като генерират идната евентуална дума в присъдата.
Ефектът на Yea-Sayer поражда при AI модели, подготвени благодарение на увеличаване на образованието от човешка противоположна връзка (RLHF)-човешки „ лаборатори за данни “ правят оценка отговора, генериран от модела като допустим или не. Тези данни се употребяват за научаване на модела по какъв начин да се държат.
Тъй като хората нормално харесват отговорите, които са ласкателни и приятни, сходни отговори се претеглят по -силно в тренировките и се отразяват в държанието на модела. ;
Предизвикателството, с което се сблъскват софтуерните компании, е да направи AI чатботите и помощниците потребни и другарски настроени, като в същото време не са досадни или пристрастяващи.
В края на април Openai актуализира своя модел GPT-4O, с цел да стане „ по-интуитивен и ефикасен “, единствено с цел да го върне назад, откакто стартира да е толкоз прекалено завързан, че потребителите се оплакват.
Базираната в Сан Франциско компания съобщи, че се концентрира прекалено много върху „ краткосрочната противоположна връзка и не регистрира изцяло по какъв начин взаимоотношението на потребителите с Chatgpt се развиват с течение на времето-което докара до сходно сикофантско държание. “
AI фирмите работят за попречване на този тип държание както по време на образование, по този начин и след старта.
Openai съобщи, че настройва своите техники за образование, с цел да категорично насочва модела надалеч от Sycophancy, като в същото време построява повече „ гарнитури “, с цел да се защищити от сходни отговори.
DeepMind съобщи, че организира профилирани оценки и образование за фактическа акуратност и непрестанно наблюдава държанието, с цел да подсигурява, че моделите дават същински отговори.
Аманда Аскел, която работи по фини настройки и равнене на AI в антропията, съобщи, че компанията употребява образованието на характера, с цел да направи моделите по-малко по-нататък. Нейните откриватели молят за чатбот на компанията да генерират известия, които включват черти като „ да имат гръбнак “ или да се грижат за човешкото благоденствие. След това откривателите демонстрираха тези отговори на втори модел, който дава отговори в сходство с тези черти и ги класира. Това всъщност употребява една версия на Claude, с цел да образова друга.
„ Идеалното държание, което Клод от време на време прави, е да каже:„ Напълно се веселя да чувам този бизнес проект, само че в действителност името, което сте измислили за вашия бизнес, се смята за полов намек в страната, в който се пробвате да отворите бизнеса си “, сподели Асел.
Компанията също по този начин предотвратява сикофантското държание преди да започва, като промени по какъв начин те събират противоположна връзка от хилядите анотатори на човешки данни, употребявани за образование на AI модели.
След като моделът е подготвен, фирмите могат да задават систематични подкани или насоки за това по какъв начин моделът би трябвало да се държи, с цел да сведе до най-малко сикофантското държание.
Въпреки това, създаването на най -добрия отговор значи да се задълбочите в тънкостите на това по какъв начин хората поддържат връзка между тях, като да вземем за пример установяване по кое време директният отговор е по -добър от по -хеджирания.
„ [I] е за моделът да не дава страхотни, непознати похвали на потребителя? “ Джоан Джан, началник на моделното държание в Openai, сподели в постдит пост. „ Или, в случай че потребителят стартира с в действителност неприятен план за писане, може ли моделът към момента да им каже, че е добър старт и по-късно да наблюдава с градивна противоположна връзка? “
нарастват доказателства, че някои консуматори се закачат да употребяват AI.
Проучване на MIT Media Lab и Openai откри, че дребна част се пристрастяват. Those who perceived the chatbot as a “friend ” also reported lower socialisation with other people and higher levels of emotional dependence on a chatbot, as well as other problematic behaviour associated with addiction.
“These things set up this perfect storm, where you have a person desperately seeking reassurance and validation paired with a model which inherently has a tendency towards agreeing with the participant, ” said Nour from Oxford university.
AI започващи компании като Nivery.ai, които оферират чатботи като „ спътници “, са изправени пред рецензии за това, че сякаш не вършат задоволително, с цел да защитят потребителите. Миналата година младеж се самоуби, откакто взаимодейства с чатбота на характера. Семейството на младежа съди компанията за това, че се твърди, че е предизвикала непозволена гибел, както и за немарливост и лъжливи търговски практики.
воин.ai съобщи, че не разяснява висящи правосъдни разногласия, само че добави, че има „ видни отводи от отговорност във всеки чат, с цел да припомня на потребителите, че героят не е същински човек и че всичко, което героят споделя, би трябвало да се третира като небивалица. “ Компанията добави, че има защитни ограничения за отбрана на под 18 години и против полемики за самонараняване.
Друго терзание за Askell на Anthropic е, че AI инструментите могат да играят с усещания за действителността по фини способи, да вземем за пример когато оферират в действителност неправилна или предубедена информация като истината.
„ Ако някой е супер сикофантичен, това е просто доста явно “, сподели Аскел. „ По -загрижено е дали това се случва по метод, който е по -малко видим за нас [като обособени потребители] и ни лишава прекалено много време, с цел да разберем, че препоръките, които ни бяха дадени, в действителност бяха неприятни. “